DAY 10 測試跟文件說的不一樣！談測試架構

16th鐵人賽 dbt

阿晟

團隊資料工程師甘苦談

2024-09-24 01:07:00

225 瀏覽

分享至

在 yaml file 中，除了前面說到的資料表、欄位說明之外，還有另一項重要的任務，就是測試（文件）。

老實說，我們的測試還不算太完整，雖然拿了很多後端的概念，有版控、有 CI/CD 等，但測試的部分，後端跟 Data 還是蠻不同的。

軟體要進行的測試是功能測試，部署完服務後，確認功能有正常運行即可。

在資料的部分也有類似的測試，像是測試 airflow 是否有被正常觸發、cloud run 正常運行等等，但 pipeline 不只是這樣。

pipeline 就算有正常運行，我們也無法直接確認資料是否正確。

在測試環境中，我們可以確保所有的資料表都有被建立起來，但只要我們並非拿全部的資料來測試，就沒辦法確認資料完全沒有遺漏，這是我們在測試環境中遇到最大的問題。

我們在每個資料表都隨機抽樣了一些，但當這些資料表 join 後就會有很多缺漏，沒辦法確認是因為只抽了部分資料的原因，還是轉換邏輯有問題。

這個痛點目前還沒有很有效的解決。

我們目前對於這部分有分幾個等級來做處理：

最高等級

針對一些對外公開的資料，我們進行最嚴謹的限制。

我們用了 dbt 中 constraints(文件) 的設置，這個設置與 test 的功能有些類似，不過 test 是事後檢查，在建立表格後，才檢查這張資料表是否通過測試；而 constraints 則是在 query 完畢後，先不建表，而是先確認資料符合限制，才進行建表，因此可以最嚴謹地確認這張表不會有不符合限制的資料被送進來。

models:
  - name: dim_customers
    config:
      contract:
        enforced: true
    columns:
      - name: id
        data_type: int
        constraints:
          - type: not_null
          - type: primary_key
          - type: check
            expression: "id > 0"
      - name: customer_name
        data_type: text
      - name: first_transaction_date
        data_type: date